文本引导的图像操纵任务最近在视觉和语言社区中获得了关注。虽然大多数事先研究专注于单拐操纵,但我们本文的目标是解决更具挑战性的多转映像操纵(MTIM)任务。考虑到一系列指令和先前生成的图像,此任务的先前模型成功生成了图像。然而,这种方法遭受了发布的遭受,并且缺乏指令中描述的物体的产生质量,从而降低了整体性能。为了克服这些问题,我们提出了一种称为视觉引导语言的新建筑,GaN(Lattegan)。在这里,我们通过引入视觉引导的语言注意(拿铁)模块来解决先前方法的局限性,该语言模块提取生成器的细粒度文本表示,以及识别全局和全局的文本条件的U-Net鉴别器架构。假冒或真实图像的本地代表。在两个不同的MTIM数据集,CodraW和I-CLEVR上进行广泛的实验,证明了所提出的模型的最先进的性能。
translated by 谷歌翻译